SSM Vision Encoders for Visual Language Models
论文信息
论文标题: SSM Vision Encoders for Visual Language Models
arXiv ID: 2603.19209
摘要
视觉-语言模型(VLM)通常采用模块化设计:预训练的视觉编码器生成视觉token,轻量级连接器将其映射到大语言模型(LLM)的嵌入空间。当前大多数VLM仍依赖ViT家族的Transformer架构作为视觉骨干。
本文系统地研究了状态空间模型(SSM)视觉编码器在VLM中的潜力。通过严格的控制变量实验(backbone swap),作者发现:
在匹配的IN1K/224设置下,VMamba在定位任务上显著优于ViT、MaxViT等架构
密集预测预训练目标(检测/分割)可以进一步提升SSM和Tran...
MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
论文信息
论文标题: MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
作者: Yu Chen, Runkai Chen, Sheng Yi 等 (EverMind, Shanda Group, Peking University)
GitHub: https://github.com/EverMind-AI/MSA
摘要
长期记忆是人类智能的基石。使AI能够处理终身规模的信息,达到数亿token的处理能力,一直是该领域的长期追求。由于全注意力架构的约束,大语言模型(LLM)的有效上下文长度通常限制在1M token以内。
本文提出M...
DreamID-Omni: Unified Controllable Audio-Video Generation Framework
论文信息
论文标题: DreamID-Omni: Unified Controllable Human-Centric Audio-Video Generation
arXiv ID: 2602.12160
摘要
本文提出DreamID-Omni,一个统一的人类中心可控音视频生成框架。该框架基于双流Diffusion Transformer (DiT) 架构,将基于参考的生成(R2AV)、视频编辑(RV2AV)和音频驱动动画(RA2V)三种任务统一到单一范式中。
针对多人物场景中的身份-音色绑定和说话人混淆问题,DreamID-Omni提出了双层解耦策略:
信号层级:通过同步旋转位置编码(Syn-RoPE)绑定身份与音色
语义层级:通过结构化描述建立主体与...
Mixture of Depths Attention
论文概述
缩放模型深度是大型语言模型(LLM)发展的关键驱动力。然而,随着模型层数加深,它们往往遭受信号退化问题:在浅层形成的信息特征被后续层的残差更新逐渐稀释,导致深层难以有效恢复这些信息。本文提出了混合深度注意力机制(Mixture-of-Depths Attention,MoDA),允许每个注意力头同时关注当前层的序列KV对以及前面各层的深度KV对,从而有效解决信息稀释问题。
核心创新
1. 混合深度注意力(MoDA)
MoDA 是一种统一的注意力机制,将标准的序列级注意力与深度级注意力融合到一个单一的softmax算子中。每个token可以同时关注:
当前层的序列级Keys和Values
来自之前所有层的深度级Keys和Values
这种方法通过数据依赖的...
IndexCache-Accelerating Sparse Attention via Cross-Layer Index Reuse
摘要
随着长上下文智能体工作流成为大语言模型的关键应用场景,注意力效率对推理速度和部署成本变得至关重要。稀疏注意力(Sparse Attention)能够有效解决这一问题,其中 DeepSeek Sparse Attention(DSA)是一个具有代表性的生产级解决方案:其轻量级索引器(lightning indexer)为每个查询选择 top-k 个最相关的 token,将核心注意力复杂度从 O(L²) 降低到 O(Lk)。然而,索引器本身仍保持 O(L²) 复杂度,且必须在每一层独立运行,尽管相邻层产生的 top-k 选择高度相似。
本文提出 IndexCache,通过跨层索引复用来解决这一效率瓶颈。该方法将层划分为少量保留索引器的 Full 层(F)和大多数复用邻近 Full...
PyTorch Mega-Cache 实现深度解读
概述
PyTorch Mega-Cache 是一个统一的编译缓存框架,通过多层缓存策略显著提升 PyTorch 编译性能。该系统能够缓存从自动微分到 Triton 内核调优等各个编译阶段的结果。
核心架构
三层缓存体系
AOTAutograd 缓存(最高层)
缓存自动微分编译结果
避免重复的前向/反向图构建
FX 图缓存(中间层)
缓存优化后的计算图
跳过图优化和代码生成阶段
Triton 自动调优缓存(底层)
缓存最优内核配置参数
避免重复的基准测试过程
关键组件
1. 缓存管理器 (torch/compil...
PyTorch DDP梯度同步机制详解
PyTorch DDP梯度同步机制详解
概述
PyTorch的DistributedDataParallel (DDP)通过高效的梯度同步机制实现分布式训练。该机制采用分桶(bucket)策略和异步通信来优化性能,确保所有worker的模型参数保持同步。
核心架构
1. 分桶机制 (Bucket-based Gradient Aggregation)
DDP将多个参数的梯度合并到同一个桶中进行集体通信,减少通信次数:
// 桶结构定义
struct Bucket {
at::Tensor gradients; // 桶的梯度张量
std::vector<at::Tensor> bucket_views_in; // 输入视...
一种面向LLM推理的极简方法-从拒绝采样到Reinforce
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce
摘要
强化学习(RL)已成为在复杂推理任务上微调大型语言模型(LLMs)的主要方法。在近期的方法中,GRPO 因其在训练如 DeepSeek-R1 等模型上的实证成功而脱颖而出,但其有效性来源仍不明确。在这项工作中,本文从类似 Reinforce 的算法角度重新审视 GRPO,并分析其核心组件。
作者发现一个简单的拒绝采样基线 RAFT,在仅使用正样本训练的情况下,其性能与 GRPO 和 PPO 相当甚至更优。本文的消融实验表明,GRPO 的主要优势来自于丢弃所有生成回答都错误的提示(prompt),而不是其奖励归一化机制。受此...
共计 18 篇文章,3 页。
您是Lancer的第 个小伙伴
Hits